La tolleranza ai guasti è la capacità di un sistema di continuare a funzionare correttamente in caso di guasto di uno o più dei suoi componenti. L'obiettivo è evitare che un singolo punto di guasto (Single Point of Failure, SPOF) causi l'interruzione del servizio.
Un sistema tollerante ai guasti è progettato per:
La tolleranza ai guasti si basa su diverse tecniche, tra cui:
Ridondanza: Duplicazione dei componenti per avere backup in caso di guasto. Esistono diversi tipi di ridondanza:
Failover: Passaggio automatico al componente ridondante in caso di guasto del componente primario. Vedi https://it.wikiwhat.page/kavramlar/Failover.
Diversità: Utilizzo di componenti diversi, progettati e implementati in modo indipendente, per svolgere la stessa funzione. Questo riduce il rischio di guasti correlati dovuti a errori di progettazione o implementazione comuni.
Isolamento: Separazione dei componenti per impedire che un guasto in un componente si propaghi ad altri componenti.
Monitoraggio e diagnosi: Monitoraggio continuo del sistema per rilevare guasti il prima possibile e diagnosi della causa del guasto per facilitare la riparazione.
Riparazione a caldo (Hot Swapping): Capacità di sostituire un componente guasto mentre il sistema è in esecuzione, senza interrompere il servizio.
Livelli di Tolleranza ai Guasti:
I sistemi tolleranti ai guasti possono avere diversi livelli di tolleranza, che dipendono dalla quantità di ridondanza e dalle tecniche utilizzate. Un livello più alto di tolleranza implica un costo maggiore in termini di risorse e complessità.
Applicazioni:
La tolleranza ai guasti è fondamentale in sistemi critici, come:
In sintesi, la tolleranza ai guasti è una caratteristica essenziale per garantire la continuità del servizio e la protezione dei dati in sistemi critici. La scelta delle tecniche di tolleranza ai guasti dipende dai requisiti specifici del sistema, dai costi e dalla complessità.